GPU广泛用于加速机器学习工作负载的培训。随着现代机器学习模型越来越大,他们需要更长的时间来训练,导致GPU能耗更高。本文介绍了GPOEO,一个用于机器学习培训工作负载的在线GPU能量优化框架。 GPOEO通过采用用于在线测量,多目标预测建模和搜索优化的新颖技术动态地确定最佳能量配置。为了表征目标工作量行为,GPOEO利用GPU性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代移位时收集性能计数器数据。 GPOEO基于梯度升压和本地搜索算法使用多目标模型,在执行时间和能量消耗之间找到权衡。通过将其应用于来自在NVIDIA RTX3080TI GPU上运行的两个AI基准套件,通过将其应用于71台机器学习工作负载来评估GPoeo。与NVIDIA默认调度策略相比,GPOEO提供16.2%的平均节能,平均执行时间增加5.1%。
translated by 谷歌翻译
神经网络稳健性近年来已成为机器学习中的核心主题。大多数培训算法,提高模型对抗对抗和共同腐败的鲁棒性也引入了大的计算开销,需要向前和后向往的数量和后向往的多达十倍以便收敛。为了打击这种低效率,我们提出了Bullettrain $ - $界限示例挖掘技术,以大大降低强大培训的计算成本。我们的主要观察是,只有一小部分的例子是有利于改善稳健性的有益。Bullettrain动态预测了这些重要的例子,并优化了强大的培训算法,专注于重要例子。我们将技术应用于几个现有的强大培训算法,在CiFar-10和Cifar-10-C和CiFar上的Augmix上获得了2.1美元\ Times $ 10.7 $ \ times $ Scase-Up。100-C没有任何清洁和稳健的准确性。
translated by 谷歌翻译
Modern embedding-based metrics for evaluation of generated text generally fall into one of two paradigms: discriminative metrics that are trained to directly predict which outputs are of higher quality according to supervised human annotations, and generative metrics that are trained to evaluate text based on the probabilities of a generative model. Both have their advantages; discriminative metrics are able to directly optimize for the problem of distinguishing between good and bad outputs, while generative metrics can be trained using abundant raw text. In this paper, we present a framework that combines the best of both worlds, using both supervised and unsupervised signals from whatever data we have available. We operationalize this idea by training T5Score, a metric that uses these training signals with mT5 as the backbone. We perform an extensive empirical comparison with other existing metrics on 5 datasets, 19 languages and 280 systems, demonstrating the utility of our method. Experimental results show that: T5Score achieves the best performance on all datasets against existing top-scoring metrics at the segment level. We release our code and models at https://github.com/qinyiwei/T5Score.
translated by 谷歌翻译
在这项工作中,我们试图破译过去几十年来NLP技术开发的内部联系,以寻找本质,这使我们对NLP任务的(潜在的)新学习范式奖励我们,被称为重组的预训练(RST)。在这样的范式中,将重新强调数据的作用,并将下游任务的模型预训练和微调视为数据存储和访问的过程。基于此,我们将良好的存储机制不仅应具有缓存大量数据的能力,而且还考虑访问的易于访问的简单原则。我们通过重组的数据来实现这一目标,这些数据包括各种有价值的信息,而不是在克服了几个工程挑战之后而不是原始数据。在实验上,RSS模型不仅超过了52/55的55个受欢迎数据集的强大竞争对手(例如T0),而且还超过了各种NLP任务的流行数据集,而且在全国大学入学考试中取得了卓越的表现 - 英语(Gaokao -English),这是最权威的考试,这是最权威的考试中国。具体而言,所提出的系统QIN比学生的平均得分高40点,比1/16参数的GPT3高15分。特别是,在2018年英语考试(国家论文III)中,秦的高分为138.5(全分为150)。我们已经使用在线提交平台发布了Gaokao基准。此外,我们在几天前发生的2022年大学入学考试英语(2022.06.08)中测试了我们的模型,总得分为134(V.S. GPT3的108)。
translated by 谷歌翻译
现有的多代理感知系统假设每个代理都使用具有相同参数和体系结构的相同模型。由于置信度得分不匹配,因此可以通过不同的感知模型来降低性能。在这项工作中,我们提出了一个模型不足的多代理感知框架,以减少由模型差异造成的负面影响,而无需共享模型信息。具体而言,我们提出了一个可以消除预测置信度得分偏置的置信校准器。每个代理商在标准的公共数据库中独立执行此类校准,以保护知识产权。我们还提出了一个相应的边界盒聚合算法,该算法考虑了相邻框的置信度得分和空间协议。我们的实验阐明了不同试剂的模型校准的必要性,结果表明,提出的框架改善了异质剂的基线3D对象检测性能。
translated by 谷歌翻译
我们在变压器中重新审视设计选择,并提出方法来解决它们在处理长序列中的弱点。首先,我们提出了一个名为“门控注意单元”的简单层,该层允许使用较弱的单头注意,而质量损失最小。然后,我们提出了一种与该新层的线性近似方法互补的,该方法对加速器友好且质量高度竞争。最终的型号(名为Flash)与短(512)和长(8K)上下文长度相匹配,在WIKI-40B上达到高达4.9 $ \ times $的训练速度和PG上的12.1 $ \ times $,在PG上达到了4.9 $ \ times $的困惑。-19用于自动回归语言建模,C4的4.8 $ \ times $用于掩盖语言建模。
translated by 谷歌翻译
用于自我监督的顺序行动对齐的最先进方法依赖于在时间上跨越视频的对应关系的深网络。它们要么学习横跨序列的帧到帧映射,但不利用时间信息,或者在每个视频对之间采用单调对齐,这忽略了动作顺序的变化。因此,这些方法无法处理涉及包含非单调动作序列的背景帧或视频的常见现实情景。在本文中,我们提出了一种方法来对齐野生序列动作,涉及不同的时间变化。为此,我们提出了一种方法来强制在最佳传输矩阵上强制执行时间前导者,该矩阵利用时间一致性,同时允许动作顺序变化。我们的模型占单调和非单调序列,并处理不应对齐的背景框架。我们展示了我们的方法在四个不同的基准数据集中始终如一地始终优于自我监督的顺序行动表示学习的最先进。
translated by 谷歌翻译
在许多环境监测方案中,采样机器人需要同时探索环境和利用有限时间利用感兴趣的特征。我们介绍了一个名为Pareto Monte Carlo树搜索的多目标信息规划方法,该方法允许机器人处理潜在的竞争目标,例如勘探与剥削。该方法基于环境状态的知识(估计)为机器人产生了优化的决策解决方案,从而更好地适应环境动态。我们在关键树节点选择步骤提供算法分析,并显示选择子最优节点的次数是对数界限的,并且搜索结果以多项式率收敛到最佳选择。
translated by 谷歌翻译
信息性规划试图指导机器人的一系列动作,以收集最大信息的数据以映射大环境或学习动态系统。信息规划中的现有工作主要侧重于提出新规划者,并将其应用于各种机器人应用,如环境监测,自主勘探和系统识别。信息规划人员优化了概率模型给出的目标,例如,高斯过程回归。在实践中,该模型可以很容易受到无处不在的传感异常值的影响,导致误导目标。直接的解决方案是使用搁板的异常值检测器过滤出传感数据流中的异常值。但是,信息性样本也根据定义稀缺,因此它们可能被错误地筛选出来。在本文中,我们提出了一种方法来使机器人能够重新访问除了优化信息规划目标之外对异常值进行采样的位置。通过这样做,机器人可以在异常值附近收集更多样本,并更新异常值检测器以减少误报的数量。这是通过在蒙特卡罗树搜索的帕累托变体上设计一个新目标来实现的。我们证明所提出的框架可以实现比仅应用异常值探测器更好的性能。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译